SPSS 数据准备 4 – 指定缺失值

By Ruben Geert van den Berg under Data Preparation

4. 用户缺失值 (User Missing Values) 的存在

(概述和数据文件可以在这里找到)

用户缺失值是我们想要从分析中排除的值。我们通过在 SPSS 中将（范围）值指定为“缺失”来实现这一点。对于有序变量 (Ordinal Variables)，我们通常排除诸如“不知道”或“不适用”之类的答案。对于度量变量 (Metric Variables)，我们排除不合理的值，通常是非常高或非常低的值。

那么，我们如何知道一个变量是否包含任何需要指定为缺失的值呢？对于有序变量，我们运行带有条形图的频数表 (Frequency Tables with Bar Charts)；对于度量变量，我们运行直方图 (Histograms)。让我们看一些例子。

SPSS 频数表与条形图语法 (SPSS Frequency Table with Bar Chart Syntax)

我们首先看一下 q2。由于这是一个有序变量，我们将使用下面的语法生成其频数表和条形图。

***1. 在表格中显示值和值标签 (Value Labels).
**
set tnumbers both.

***2. 对 q2 运行频数表和条形图.
**
frequencies q2/barchart.

结果

首先，请注意，较高的值对应于对酒店设施更为积极的态度。然而，6（“没有答案”）并不比 5（“非常好”）更积极。因此，我们通过运行 missing values q2 (6) 将其指定为缺失值。如果我们现在重新运行条形图，我们将看到“没有答案”已按照预期从条形图中排除。

SPSS 直方图语法 (SPSS Histogram Syntax)

现在，我们将检查是否需要为 rprice 指定任何用户缺失值。由于它是一个度量变量，我们将通过运行 frequencies rprice/histogram 来检查其直方图。结果如下所示，看起来非常奇怪；似乎有些人为他们的房间支付了 999,999 欧元。另请注意，此时的平均房价似乎是 3400 欧元。

这里的问题是 999999 可能是一个代码，表示房价未知，而不是 999,999 欧元。因此，我们将通过运行 missing values rprice (999999) 将其指定为缺失值。如果我们现在重新运行直方图，它就变得有意义了，并报告平均房价约为 80 欧元。

5. 每个变量的缺失值

(概述和数据文件可以在这里找到)

我们之前建议为所有分类变量运行带有条形图的频数表，并为所有度量变量运行直方图。我们这样做是为了检查是否需要指定任何用户缺失值。完成此操作后，我们检查每个变量的缺失值数量（无论是用户缺失值还是系统缺失值 (System Missing)）。具有许多缺失值的变量通常是不受欢迎的，有时会被删除或从分析中排除。

例如，让我们检查 q3。由于它是一个有序变量，我们将运行频数表和条形图，使用 frequencies q3/barchart。

结果

请注意，所有值中有 96.5% 是系统缺失值。我们只有很少的实际答案，我们可以考虑完全删除此变量。